李丰对话逐际动力创始人张巍:人形?机器人?| 峰瑞创投对话
中国首个成功在野外徒步的双足机器人,是怎么做出来的,背后有哪些黑科技? 2016年AlphaGo赢了棋王 vs.2024年双足机器人在野外行走,这两件事的实现难度有什么不一样? 机器学习和模仿学习是怎么一回事? 人类并不完美,机器人采用人形设计是必要的吗? 既然人形机器人本质上是代替人去运动,那么具体到移动与操作,目前的人形机器人发展到了什么阶段,又面临哪些挑战? 人形机器人行业在中美的发展前景会如何?
互动福利
在具身智能领域,你观察到哪些创新机会?对于人形机器人,你有哪些期待呢?截止至4月10日17:00,留言最走心的5位读者将获得《第三种猩猩》和《人类简史》两本书。
李丰:最近逐际动力发布了一个双足机器人的demo,反响非常热烈,很多媒体包括新华社、参考消息等都转发了。这个视频播放量现在多少了?
张巍:发布不到一周的时候已经1300多万。
李丰:然后有无数的点赞,网友的评论非常多。有很多人说,这是他见过的非常了不起的中国科技。有一条高赞评论很有意思——这个机器人什么时候能够替代国足?正好我们可以稍微聊一下,它是否有可能替代职业运动员,比如足球队员或者登山运动员?
张巍:我认为未来还是有希望的。
李丰:我看到视频,自己转发的时候,说“虽然看起来有点蠢萌和可怜,但还是很厉害了和同类比”。
张巍:哈哈,蠢在什么地方?
李丰:就它行走的时候还是有点踉踉跄跄的,不过它即便快要摔倒了也能自己爬起来。这个机器人在全球同一方向上是个什么水平?
张巍:首先,它是一个双足机器人。双足机器人普遍被认为是比较难控制的一类机器人。目前,大多数双足行走仍局限于实验室内的可控场景。当然,在实验室场景里,机器人能做出比行走更酷炫的动作,比如之前波士顿动力人形机器人Atlas翻跟头的视频。不过,双足机器人真正在野外进行开放式行走,在全球范围内还是比较少见的。
李丰:除了逐际动力之外,还有其他人发布这类视频吗?
张巍:目前我没看到其他同类的视频,不过,从能力上来讲,随着AI技术的发展,未来其他团队也能逐渐做出来。
李丰:回看视频,我们可以关注到一些技术层面的细节。
第一个,它是两只脚。双足机器人在平衡控制上的难度明显高于四足机器人。尤其是当机器人踉踉跄跄的时候,假如一只脚踩空了,还有其他三条腿帮着平衡,而双足在重心不稳的时候,需要另一只脚在第一时间作出反应,根本没时间思考,否则极易摔倒。
第二个,这款机器人的脚比我们一般人的脚掌要小很多,它是个点足,很难平衡,因为接触面积和受力面积都受限。
第三个,这次机器人面对的是复杂的地形环境。地面软硬难辨、隐藏的坑洼、不易识别的坡度和高度差等,即便配备了视觉传感器(虽然本次视频中的双足机器人P1不带视觉),也容易误判,就像人在山林中常因落叶遮挡视线而踩空或绊倒。面对这些情况,人尚可用手辅助恢复平衡,但这个机器人只能依靠双脚进行实时调整,所以我们能看到它出现踉跄甚至差点摔倒。
再加上人为干扰,推它、打它,其实是为了测试,都会导致机器人行走不稳。除了这些之外,您觉得还有哪些有意思但可能不容易被关注到的细节或难点?
张巍:您几乎把所有细节都说全了。我稍微补充一点,这个双足机器人没有脚掌的设计,其实是我们用来测试算法的一种方法,没有脚掌就好比人踩着高跷。您可想象我们人类踩着高跷在山里走,我们的运动能力也不见得比这个机器人强。可以说,这款机器人在基础运动能力上已经达到了类人水平。尽管您刚提到的所有复杂场景我们还不能保证它能完全没有失误地应对,但这已经是一个达标的起点,我觉得后续进展将会非常迅速。
李丰:对,视频下面有些有意思的评价:如果机器人具备在未知环境中探索的能力,比如在地震现场、煤矿井下,或者一些塌方或泥石流等复杂场景中,它如果能进去救人、运送物资就好了。目前它是否具备这样的能力?
张巍:从移动能力角度来看,我认为技术验证已基本过关。不过,去到复杂环境,执行拿取、搬运等涉及上肢精细操作的任务,还需要时间去迭代完善。但总体来说,这是大家可以预期的事情,是有可行性的,且未来技术进步的速度会相当快。
李丰:也就是说,在不久的将来,至少在我们的日常生活中,我们或许能看到人形机器人往里运东西的可能性了。
张巍:只要不是太重,问题应该不大。许多技术难题就如同一层窗户纸,一旦捅破,后续的发展就会变得可预测。做一些前沿探索或攻关,就如同在黑暗中摸索,一抹黑什么也看不到,你觉得很难,突然间你找到了那个关键的“开关”,所有事情就会变得简单。从机器人移动能力的角度来看,我认为现在已经找到了这样一个“开关”。
李丰:我们发布的demo所呈现的内容,有可能提前个一年半载做出来吗?
张巍:比较难,因为它涉及到各方面多个因素,得大家凑在一起条件成熟,而非单一努力所能达成。这些因素,有些是在我们掌控中,有些在我们掌控外。我可以先列几个:
AI基础设施的成熟:虽然这个与人形机器人直接关联度不高,但AI工具链和基础设施的发展,对人形机器人领域的间接影响也很深远。我可以打个比方,ChatGPT等大模型的崛起极大地推动了AI基础设施的建设,就相当于为很多行业铺了高速路。我们机器人行业用这个高速公路去做一些我们的运输就更方便。这是个很大的变革,这个变革在近一两年愈发成熟。
机器人硬件的成熟:硬件是机器人技术的基础,它的成熟度直接影响到机器人的性能、应用范围等多方面。随着这一两年机器人硬件的发展,各个技术方向的关键“开关”逐渐被找到,所以我们开始看到能行走的机器人也是这一两年。
强化学习技术的突破:强化学习是机器人智能控制的核心技术之一,其技术“开关”的发现也是在最近这一年左右的时间。
李丰:能否请您跟大家科普一下,这个强化学习大概是怎么一回事?
张巍:强化学习是深度学习和机器学习的一个分支,本质上都是干一件事,将我们现实生活中可认知的目标转化为数学上的 loss function(损失函数)或者叫 reward function(奖励函数)。
简单来说,就是通过设定一个目标(比如让机器人保持行走不倒),然后将这个目标转化为一种数值指标(如行走不倒时给予正奖励,摔倒时给予负惩罚)。接下来,我们使用神经网络来描述并学习如何实现这个目标,即优化策略。强化学习可以视为一种特殊的机器学习方式,它涉及到一个专业术语Markov Decision Process(马尔可夫决策过程),它是一个动态的系统学习的决策过程。通过神经网络,人形机器人学习根据当前状态来调整策略,来获得最大化的奖励。具体而言,它会根据收到的奖励信号来优化神经网络的参数,以便在后续行动中选择更优策略。
李丰:在我们内部讨论强化学习和模仿学习的时候,有个比方是整个过程就像婴儿学步。小孩子看大人比如爸爸妈妈走路是一种模仿学习。然后没走稳摔屁墩就像是惩罚,会指向孩子纠正调整自己的步伐;而成功走到目的地获得爸爸妈妈的拥抱和奖励,不管是棒棒糖还是玩具,就是强化了正确行走模式的记忆。强化学习就类似小孩子在这个摔屁墩和拿奖励的过程里学走路。
张巍:这很形象。随着深度学习技术的推进和计算资源的发展,您可以想象同时有成千上万个“小孩”在那儿走,进行这种学习过程,学习效率会高很多。
李丰:或者说相当于一个小孩可以有成千上万个分身,同时通过摔倒(摔屁墩)和走到目的地(拿棒棒糖)来学习走路,然后再把这些分身学习完的结果合并起来,于是这个小朋友学走学跑的速度就快了很多。
张巍:对。
李丰:回到我们刚讲的那个视频,双足机器人展现了出色的运动能力,尤其是下肢。我想问的是,视频中展示的机器人从硬件到算法再到控制,全部都是我们自主研发的吗?
张巍:是的,我们的硬件和算法都是自主研发的。当然我们肯定也有基于前人已有的、公开的研究成果来进行迭代,它是整个领域不断进化后的一个结果。
李丰:那这个过程的实现,更偏向科学研究还是工业实践,还是说在两者中间?
张巍:可能两个都需要,这是它为什么难。它既需要工程上的实现,又涉及科研攻关,因为有些问题之前没有被攻关或者说很好地解决,并不是别人已经做完了我们简单复制一下,所以,我们需要提出新颖的方法和策略,需要做一些创新。
李丰:视频中有一小段儿关于双足机器人在穿越小山沟时差点被土墩绊倒。我留意到这时视频特意放慢至0.25倍速,虽然看起来并不十分缓慢,但我们能看到机器人在即将倒地的瞬间,迅速调整支撑腿,然后用另一条腿调整步伐,比较迅速地恢复了站姿,从几乎摔倒的大踉跄中恢复直立。这段看似“蠢萌”的细节被特意呈现是出于什么考虑?
张巍:我没有与团队详细讨论过这一点。慢放在体育转播时比较常见,如体操比赛中精彩动作的慢镜头回放。从技术角度看,这段视频很好地体现了双足机器人在面对复杂干扰时的基础运动能力。设想一个踩着高跷的人在类似情况下要恢复平衡,难度也是很大的。这个细节其实恰好能体现这款机器人的运动能力已达到或超越人类水平,慢放可以让人看得更直观。
李丰:我稍微问一点细节问题。首先,当双足机器人面临摔倒风险时,它需要感知重心变化和平衡状态,并将这些信息传递给决策系统或算法。接着,算法需要迅速制定调整策略,将控制指令发送给各个关节(如电机等机械装置),进行实时调整。
然而,实际情况可能复杂得多:比如调整左腿时,可能并未达到预期效果,此时还需同步调整右腿来协同恢复平衡。从普通人的角度来看,这个过程包含了快速反馈、决策、调整以及应对意外情况等多个环节,且每个环节都需要在极短时间内完成,其复杂性和难度相当高。
我想知道,这个过程具体是如何实现的?
张巍:确实很难,这也是以前迟迟很难做出来今天这种效果。如今主要是得益于人工智能的进步,特别是神经网络的发展,问题变得相对容易。以往,我们可能需要基于逻辑规则或模型手动设计每一种可能的应对策略,这既复杂又难以扩展。而现在,借助神经网络的端到端学习能力,双足机器人能够在模拟大量摔倒与恢复的场景中自行学习如何应对各种复杂情况。
虽然神经网络在外界看来可能像是一个“黑盒”,但并不意味着我们对其内部在发生什么一无所知。实际上,它内部包含了多个功能模块,包括您提到的感知、决策、调整等环节。这些模块并非孤立运作,而是相互协作。神经网络通过自动化的方式来学习,生成大量训练数据,并基于这些数据自我训练。
李丰:如果我们把时间往前调一调,AlphaGo 下围棋应该就是当年神经网络在强化学习上的典型案例。2016年,AlphaGo 与李世石对战,起初两者互有胜负。然而,随着 AlphaGo 迭代升级,尤其是在自我对弈中不断学习和优化,它最终展现出超越人类棋手的实力,就一直赢。在这个过程中,AlphaGo 先学习了大量人类棋谱,而后通过自我对弈持续迭代,这与我们讨论的双足机器人通过强化学习实现自身平衡能力的提升有异曲同工之妙。
张巍:是的。
李丰:但是,现在双足机器人所面临的挑战与 AlphaGo 学习围棋不太一样。围棋是一个封闭、理论上可穷尽的环境。相反,我们的机器人需要在开放、充满未知的真实世界环境中应用强化学习,这个是不是要难很多?
张巍:下棋跟机器人运动控制可能不是一类问题,我也很难说谁比谁难。我觉得围棋还挺难的,围棋的搜索空间还真的挺大。虽然咱们这个双足机器人的运动看上去是个连续空间的运动,大家认为它不可穷尽,但其实都是可穷尽的。这个世界上所有的问题都是计算问题,所有的理论都是在降低计算的复杂度。当然这是我个人的观点。
人形机器人的运动能力在最近一两年肯定是有比较大的突破。跟可以在虚拟环境中进行迭代的电脑游戏不同,人形机器人虽然也是在虚拟环境中训练,但最终需要与现实世界的硬件和物理环境形成闭环,这是极具挑战的。早在 2015 年,人形机器人在室内行走已基本可行,但要确保在室内训练的成果迁移到实际物理世界里能无缝地用起来,这才是最大的壁垒,而这还取决于硬件的持续迭代。您刚说的下围棋,它完全发生在虚拟世界,AlphaGo 可以自娱自乐地自我提升。
李丰:过去的一些案例,不管是AlphaGo 下围棋还是模型、算法在网络游戏中的应用,都是在100%纯数字化的环境中进行强化学习的验证。这些实例表明,在理想化的模拟条件下,强化学习的效果很好。然而,对于今天的人形机器人来说,一个挑战是仿真环境与真实环境之间存在很多差异,包括地面条件等环境因素,也包括机器人与物理世界的交互本身,都会对最终的结果产生影响。
张巍:是的,人形机器人难就难在它不光是虚拟的事,它也是现实的事。它是个物理过程,非常关键的一点是要把仿真和物理世界连接起来,然后让在仿真里面学到的东西能真正地用到实际中,这个差距我觉得大家花了很长的时间来解决。因为硬件的迭代速度相对软件还是慢,慢很多很多。硬件迭代个一版两版可能半年一年就过去了。此外,硬件的摸索时间也很长,你不做实验永远不知道什么是好的一个方案。做实验和在仿真里做成千上万个复制品相比,做实验的时间成本会高很多。
李丰:好,其实我们今天的讨论主要是两部分:一是关于双足机器人技术本身,二是关于张老师的通用机器人公司。作为创始人,您认为人形机器人或具身智能方向目前算比较热了吗?
张巍:我觉得有一定热度,大家对它还是有一定的期待,也确实看到一些比较实质性的进展。
李丰:从理性角度分析,热肯定有热的道理。您觉得这个热度从哪儿来,为什么会热?
张巍:我觉得有两个主要因素。首先,AGI(通用人工智能)的发展,AGI也是所谓具身智能这个词产生的关键。以前,虽然AI(人工智能)已经发展得不错,但主要在虚拟世界里发挥作用,对现实世界的影响有限。现在有了AGI,大家开始思考怎么让AI影响物理世界,这时候就需要新的终端和载体,比如说人形机器人。
另一个是人形机器人的硬件自身也走到了一个由量变到小质变的阶段。以前做一个像样的人形机器人很难,耗时耗力,成功率还不高。现在硬件进步了,很多团队短时间内就能搭出一个和以前差不多的人形机器人,虽然功能上没有大变化。所以说,硬件的成熟也是AI在硬件上发挥作用的重要前提。
李丰:这里说的硬件具体来说是指什么?
张巍:就以人形机器人为例,人形机器人一直被认为是一个非常复杂的东西。比如腿也就是下肢这部分,就是个长期困扰大家的难题。回到开灯的例子,就像找一个藏起来的开关,很长一段时间大家都没找到这个思维开关。虽然它不需要一个新的物理发现,但它是一个需要不断尝试的工程迭代的过程。我们要找的是那个开关是硬件和软件都得配合好。硬件做出来,软件控制不好,可能我们都不知道到底是软件还是硬件的问题。然后软件迭代的时候,如果硬件有缺陷,也不行。这个迭代的过程,就像左脚右脚交替一步步往前走的过程,它很难一个脚迈很大一步。现在我觉得这两个脚都走到一个开关的位置了。
李丰:想起来那句老话,“还没学会走就想着跑”。就相当于是在人形机器人肢体动作还不是很稳、力量不够之前,同时让它的“大脑”学会维持姿态、步态和保持平衡。理论上这两方面得一起慢慢进步,就像小孩学走路,得先摔几次跤,然后等身体变得更强壮,最后才能跑起来。
张巍:对,软件和硬件是强耦合的,软件自己没法独立迭代,因为它不知道怎么是好的或者说合适的。以前,硬件非常贵,要很长周期才能做出来,软件因此也没有机会成长。现在大家算是找到了一个可行的方案,接下来就是要不断迭代。憋大招不是关键,持续迭代才是关键。
李丰:今天我们聊的硬件更多的是比如说减速器、电机这些所谓控制关节的自由度、精确性、灵敏度的东西,还是指更多其他的不同的硬件?
张巍:主要是整个的结构,包括架构件、关节的设计,还有传动系统的方案。这些方案怎么实现,比如要不要装传感器,要不要力传感,传感的响应速度需要多快,这些胳膊和腿的需求都会不一样,都要一步步试,然后每次迭代都得花不少时间。以前AI技术没发展到现在这么好,大家对这个没那么上心,投入也有限。它其实不需要什么巨大的物理发现,就是需要不断迭代到一个关键的开关点。
李丰:我们刚投了一个做六维力传感器的项目。他们用MEMS技术,使得成本下降很快。不过当下看来,六维力传感器还没有被广泛装在现在的人形机器人上。
张巍:力传感确实是需要的,关键是怎么获取力的信息。有些情况下,靠人形机器人自己的驱动系统和算法来估算力就足够了,不需要额外装传感器。当然,你也可以直接装传感器来测量力,但要求响应速度得快,不能发个指令一秒后才有反应,那肯定不行。至于多快才够,这些都需要在迭代过程中慢慢摸索。现在我感觉已经找到了一个不错的起点,接下来会百花齐放,大家各自按自己的路径迭代,估计发展会很快。
李丰:现在作为人形机器人动力系统的电机,在应用于腿或下肢时,已经达到相对好用的状态了吗?
张巍:好用谈不上,是可用。
李丰:我们设想人形机器人要变得更厉害,比如当个足球运动员,无论是优秀还是普通水平。除了爬山这类运动,电机在应对更复杂的运动场景时,还需要哪些改进或提升?
张巍:提升电机的扭矩密度始终是一个发展方向,尽管可以通过其他传动方式来弥补。硬件的发展主要取决于其功能定位、市场需求,以及商业价值。
个人认为,让人形机器人踢球爬山可能意义有限,让人形机器人承担日常服务工作,如取水、协助生产线操作等更有现实意义。这些任务对人形机器人运动的复杂性和极限要求没那么高,更能发挥它帮人类做点服务的价值。毕竟不是每个人都能上场踢球,有的人也跑不动,但不妨碍他是一个很好的劳动力,可以成为在社会里起到很多作用的一个角色。这个角色,也就是到底干什么决定了硬件的迭代方向,可能不同的公司有不同的选择。
如果要追求极限运动性能,可能需要像波士顿动力早期产品那样的高度看齐,但这需要电机的性能有显著提升,比如波士顿动力早期产品采用液压方式。
李丰:我们来讨论两个其他问题。首先,我想知道张老师您认为机器人采用人形设计是否必要,这也是当下引发热议且存在不同见解的一个焦点。
张巍:虽然大家看法不同,但人形设计在一定程度上是有必要的。早期大家在推广AI技术时,许多报告或宣传材料都会画出人形的形象,即使当时AI本身并不会画画。这些宣传海报中常有个人的脑袋,有的甚至只画半个脑袋,所以人们早已把AI与人形载体联系在一起了。
人们对人形机器人的考量因素很多,其中一种直观且基础的看法是社会和情感层面,人形机器人更容易引发人们的共鸣,容易被人接纳。虽然我本人是理工科出身,对人形设计并无特别的执念,但在我们这次发布的视频中,双足机器人遭“打”的场景,我看很多人都反馈说很心疼,我才意识到大家对机器人是有这种社会情感因素在的。
李丰:很强,确实很多人都觉得机器人被打了很可怜。
张巍:我之前并没有深入体会到这一点,现在确实感受到了。但这不是我们设计人形机器人最主要的出发点。有一种观点是,人类进化并不完美,机器人模仿人类的形态并无必要,还不如仿照鸟类制造能飞行的机器人。这类观点相当普遍。实际上,我们设计人形机器人并不是单纯模仿人类的样子,而是看重其功能性。尽管人类的形态并非自然界中最完美或最高效的,我们跑不过汽车,飞不过鸟类,但整个现代社会却是围绕人的形态构建的。
李丰:这里我插一句话,我们之前推荐过一本非常有趣的书《第三种黑猩猩》。这本书如果结合其他作品,比如《人类简史》等书来阅读,会让人产生一种关于人类演化的深刻认识。作者认为,人类从四肢行走转变为两条腿直立行走,实质上是在生存压力下优先发展大脑。这一转变牺牲了速度和稳定性,但换来了大脑的显著进化,进而推动我们学会了使用工具,包括火等。
这是一个典型的妥协与演化过程,我们在进化过程中舍弃了一些特性,同时也获得了决定性优势,这些优势在漫长的演化过程中帮助人类几乎超越所有物种,成为地球上繁衍量最大的哺乳动物之一。
虽然机器人并不一定要这么来演化,之前您也提到要基于功能需求来设计机器人,那么问题是:两条腿是否真的是最佳选择?
张巍:我认为两条腿最好。
李丰:是因为两条腿最节能,还是效率最高?
张巍:因为两条腿最能适应我们人类的环境。因为我们人类就是两条腿,谈不上节能,但这是经历了十几万年的演化的结果,估计未来一万年内也不会变,我们不会突然长出三条腿来。我们的生活环境,包括家具的高度、门把手的位置等,都是根据人类的体型来设计的。机器人的形态越接近人类,就越能无缝融入我们的环境,集成成本也就越低。机器人跟人类的形态越不同,现实世界里的很多东西就需要重新设计和部署。所以,机器人设计首要考虑的是适应人类环境。我一直认为,机器人应该是在人类环境中服务于人,或者代替人进行劳动的角色。
其实每个应用场景都有最适合其特性的机器人形态,三条腿或者其他形态都有可能适用。我们单独选一个场景,如果这个场景或任务规模足够大,将机器人单纯视为工具,那么它的形态往往不是人形。但是要在所有场景里取个最大公约数的形态,那就是人形。
此外,从机器人的角度来讲,两足人形最关键的一点是能有双臂来进行操作。人形机器人最大的优势在于具备通用的移动操作能力,能在人类的活动空间中像人一样完成各类动作。人类对机器人的形态有很多想法,比如三条腿、四条腿加上两个臂等等,这些不仅增加了不必要的复杂性,还可能导致机器人在狭小空间中行动不便,无法灵活转弯或从高处取物。相比之下,人形机器人由于形态接近人类,能极大减少与环境交互的集成成本,是一种相对通用的设计选择。
李丰:逐际动力之前还研究过轮足机器人,无论是两条还是四条腿,它的脚不是点足或脚掌,而是装有轮子,这种机器人既能行走,又能滚动前进。在当前技术进步的背景下,轮足机器人是否会受到类似的技术演进的影响,什么时候能够实现更复杂、更酷炫的功能,比如在崎岖山地行走后,迅速切换到公路来个长距离奔跑,然后继续攀爬陡坡?
张巍:从技术可行性角度来看,轮足机器人实现这三种模式切换是完全可能的,我们也在往这个方向研发。四足机器人,不论是否配备轮子,目前重点是解决“通用移动能力”,也就是实现对各种地形的泛化适应。也就是能够实现与人类相似的地形适应性就行,不用超越人。
李丰:比如爬雪山、过草地。
张巍:这不太通用,并不是每个人都爬雪山。对于大部分人在日常生活中常见的各类地形,如果希望机器人能有很强的泛化移动能力,四条腿儿就够了,它是最佳形态。两足机器人设计的主要目的是实现直立行走,以便前两肢(即双臂)进行操作,换句话说解放双手。
李丰:换个思路,假设不考虑飞行功能,设计一个变形金刚那样的机器人,它既可以是两条腿或者两个轮足,也可以是四轮足,甚至还能将前面2个轮足变为手臂。
张巍:太复杂了。一旦人形机器人可以做得足够好,它就能胜任大部分通用的操作任务。两条腿的功能主要是稳定的操作。你想它快,你让它骑平衡车、开车,用人的工具就行了,不用它一个机器人什么都能干。我觉得两条腿加轮子没有必要,太复杂了,甚至有点违背第一性原理。
李丰:既然说到两足、四足,今天有人说自己在开发人形机器人,也有人说自己在做具身机器人。当我们谈论机器人时,应该如何来进行分类?比如我们刚才开玩笑说张老师主要做机器人的下半身,或者说腿、下肢部分。还有其他分法提到三层架构:大脑、小脑、本体。
张巍:我们先从功能来讲,机器人本质其实是代替人运动的。为什么叫本质?就是它可以用来定义什么是机器人。至少在传统机器人领域,只要它不动,就不能把它叫做机器人,所以说那些对话机器人其实是 chatbot ,如果不动,它就不是机器人。
机器人本质上是代替人去运动, AI 是代替人思考,它们的本质目标是不一样的。运动我们可以分成移动(Mobility)和操作(Manipulation),就是您说的下半身和上半身。这两类就是机器人核心要干的事儿。然后有的机器人是光做移动的,有的是光做操作的。
李丰:如果光做移动,是不是就像智能驾驶的全自动汽车了?
张巍:对。移动和操作都可以具身,也都可以有大小脑。就比如说一个人,没有双手,或者没有双脚,他也是有大小脑的。那人形机器人就是要做一个“非残疾人”。它的终极使命是拥有像人一样的可泛化的移动和操作能力。在这个过程中是需要很多 AI 。AI 的发展既能帮助小脑的运动能力,又能帮助所谓大脑来感知世界。对机器人来讲,感知的目的也是为了运动,是为了通过运动来能更好地跟环境进行交互,影响环境。比方说,你得知道这个杯子在哪,然后去拿。
李丰:逐际动力的视频展示了双足机器人在开放环境中下半身运动能力的进步,这得益于软硬件结合与人工智能技术尤其是强化学习的发展。那么,这些技术进步如果用在人形机器人的上半身会发生什么?
张巍:本质上,机器人的运动有两个核心目标:一是改变自身的位置和状态,比如从A点移动到B点;二是通过自身的运动去改变环境中物体的状态,比如,机器人去把这个杯子递给了你。
李丰:也可以把钱包递给我。
张巍:哈哈哈。上肢运动的技术发展四五十年了,已经相对成熟。但是如今人们对机器人上肢的要求已不仅仅是能自主运动,更重要的是实现精准操作,成功完成指定操作任务。从这个角度看,强化学习对机器人上肢的精准操作提升可能帮助有限,因为它更侧重于机器人与环境的交互。相比之下,当前前沿的环境理解感知技术,以及模仿学习等领域的最新进展,对于推动机器人上肢功能的进一步迭代更有用。我觉得这些技术处于一个快要找到“开关”的状态。
李丰:好,我试着从非专业角度来解释一下。人类上肢,从20世纪50年代自动控制技术的兴起,以及最初的机械臂和工业机器人的诞生算起,已经有很长的发展历程。那时的机械臂可以被看作一种原始的“上肢”,但是它的能力仅限于进行机械、重复且较为简单的动作。而现在,我们对机器人上肢的要求显著提高,希望它们能完成高精细度的工作,比如精准地拿起杯子,或者执行像“如何将大象放入冰箱”这类需要多个精确步骤的任务。
张巍:是的,或者说它的难点与早期比不太一样。
李丰:好,我们后面还会有一期节目深入探讨机器人“上肢”或精细动作相关的话题。张老师刚才提到了模仿学习这一概念,能否简单科普一下?
张巍:模仿学习也是一种机器学习。它本质上是人或者专家给一个试教,然后人形机器人观察这个操作后,通过学习来进行复现,有一个比较流行的词叫 watch and do(看着做)。这里需要强调的是,模仿学习在很大程度上是数据驱动的,大部分情况下模仿学习真的没有模型,也不用对物理世界进行建模,只要观察到动作然后完成复现。强化学习本质上是模型驱动的,它依赖于对世界的建模,然后在一个仿真的环境里去组合各种的尝试,只不过AI提高了模型的泛化能力。
李丰:用大白话来说,模仿学习就好比是“有样学样”。比如学习弹钢琴、打羽毛球这类技巧性运动,往往需要人手把手教一些动作,这其实就是在模仿。当然,我们在学习过程中,会通过进球得分或球没进的体验来强化学习。还是回到上半身的话题,为什么上半身不能像下肢的运动那样更多地用强化学习,而是更多地需要借助模仿学习?
张巍:按照刚才所说的分类,人形机器人自身的运动通常有很好的物理仿真模型,与真实情况较为接近,强化学习在这种情况下比较容易应用。但当涉及到上半身的操作时,尽管自身运动的仿真相对容易,但与操作对象的交互却非常难以准确建模。尤其是操作对象种类太多了,比如现在桌面上可能有二三十种不同的物品,想给每一个东西都建清晰、精确的仿真模型非常难。特别是在机械臂末端,不管是手还是夹爪在与物体接触交互的物理过程,是很难准确、详细地描述清楚的。
也正因为我们无法将现实物理世界完全建模出来,模仿学习成为了初期阶段较为可行的选择。实际上,过去一年尤其是最近半年,斯坦福炒菜机器人等项目的进展,本质上都是模仿学习的应用进展。
李丰:当我们与自己身体无关的物体交互的时候,往往会运用到人类固有的常识、基础物理知识和对规律的理解。
比如,当我们拿起一个杯子或其它物品时,会下意识地判断它是硬的还是软的,还是说像鸡蛋那样一捏就碎,又或者是像手机那样即使摔几下也不会损坏。我们会根据物品的材质、摩擦力等因素,决定是轻轻拿起、用力握紧,还是小心地捧起来。这些判断都跟我们对物理世界的感知与交互相关,包括对物体重量、形状的预估,以及选择何种姿势和角度能够较为稳定、便于抓取和举起。
此外,面对不同状态的物体,如倒置、正立或倾斜的杯子,我们需要判断以什么角度接触最稳妥。所有这类操作都涉及对诸多物理量的估算,以及接触过程中的反馈和判断。
举个例子,有时我们看到一个看似轻巧的盒子,实际尝试拿起却发现非常沉,因为里面装了几对哑铃,这就是接触过程中的一种反馈。
现在的问题是,就像张老师说的,对于强化学习来说,即使面对同一类型的箱子,可能难以在实际接触前做出准确的模型预测和判断。因为包括材质软硬在内的许多物理特性,很难在仿真环境中完全、精确地模拟出来。
张巍:确实,比如流体建模就极其复杂。
李丰:接下来,我举两个小例子来讲当今世界在这一领域所取得的不同进展,其中有个方向我们投了,叫新一代工业设计软件。那么新型CAD软件与传统CAD软件有何不同呢?关键在于,它们能够在设计一个结构之前,预先考虑到所有可能用到的材质特性,来计算好它怎么吸音、承重、抗震等等。用户可以来定义说,需要隔音效果好,或者要具备防弹功能,又或者要有较强的支撑力,且形状最好是圆弧形的,甚至重量尽可能轻。设计软件会将这些要求纳入计算过程,最终生成包含内外结构、形状、材质表面特性以及摩擦力等详细信息的设计方案。
张巍:听起来就非常复杂,我觉得它对某些专业领域进行建模是可行的。如果说是完成实际操作任务,我估计它的扩展性有限。其实大家对仿真可能有种误解,常常以为机器人通过仿真技术可以轻松解决机器人数据、实验数据难获取等问题,甚至让所谓的“数据飞轮”转起来。但实际上,仿真本质上是对现实物理世界的建模。正如您刚才所提到的,建模时需要考虑很多因素,而现实世界中存在无数各不相同的物体,要想实现广泛的泛化建模几乎是不可能的。
此外,机器人完成操作任务时,并不需要对整个物理世界进行全面建模,坦白讲,建模比实际完成操作任务要难很多。至少在小范围内,人们开始意识到这一点。这也是为什么当前模仿学习能取得一定进展。因为人们开始意识到,人在抓取物品时,并不需要知道物品的具体模型或参数,仅凭直觉就能成功抓取。这是大家意识层面的一个转变。
李丰:这里面有很多对硬件的要求,以拿杯子这样的简单动作为例,首先,杯子的硬度和软度决定了我如何去评估其重量和材质,进而决定是用力握住还是轻轻地拿着。其次,杯子表面滑不滑,需要多大力度才能拿住,其实都是在拿的时候才知道,然后还需要在抓取瞬间就能即时反馈。对人来说还有个额外的问题,万一杯子里装的是滚烫的水,可能就拿不住。
所以,理论上触觉传感器需要在末端上非常灵敏,能够对各种信号进行及时且实时的反馈,且让这些反馈能实时指导接下来的操作。在您看来,这些事情在硬件上目前进展到了什么阶段呢?
张巍:人形机器人火了之后,触觉传感器也成了一个热点方向。毫无疑问我们是需要触觉传感器的,但目前的行业现状是,路线很多,没有共识。确实有许多人在研究这一领域,但大多处于实验室的阶段,或者说都处于理论上可解释但是做成产品之后,鲁棒性或者一致性,又或者说多样性或者可用性较差。
这跟之前谈到的人形机器人左右脚行走时软件迭代的挑战相似,触觉传感技术的发展未必需要物理层面的突破,但一个触觉传感器有没有用,你得先把手做出来,手有没有用,你得先把胳膊做好,胳膊有没有用,你得先把 AGI 搞定。所以它的验证闭环是相当长的。
这个领域我觉得不缺人才,也不缺智慧,缺的是目标和迭代的方向。这就像在还没有摄像头的时候想通过视觉大数据完成任务一样困难。现阶段触觉传感技术在应用上还没找准明确的方向,一旦目标明晰,技术进步的步伐会加快。
李丰:我们投了个公司叫因时机器人,它是做末端执行器当中的精细运动。其实即便都是做手,也有不同的所谓这个精细动作的执行方案。我可以打个比方,早教班,当然今天这个行业受打击比较多一点,有些小朋友在上幼儿园之前会去上早教班,其实早教班花很多时间在训练小朋友的大动作、小动作和精细动作。大动作就是所谓的爬、走、跑,小动作可能是抓东西,精细动作是用手指头或者手腕加手指头来拿、捏、放、归类等等。从您的角度看,机器人的手、手腕和手指头有哪些更高的进步空间,或者说可见的解决方案的迭代?
张巍:现在做手蛮多的,特别是最近一两年有非常多。我觉得它还是比较缺迭代的方向,不确定能起多大的作用。一个领域最怕的就是它自己很难控制自己的命运,手的发展我觉得还需要等AI迭代得更成熟。但现在它确实处于一个可能会起飞的状态。因为现在有人形机器人这一波的热度和AGI的发展,大家对这一块的投入度和关注度都有所提高。
李丰:六维力传感器,或者说多维力传感器在精细动作操作方面会更有用吗?
张巍:有用,就看用它干什么,现在特斯拉和Figure的手我觉得看上去蛮不错的。
李丰:还有另一个问题,今天的视觉够不够用。我们投了一个公司Covariant,是UC Berkeley 教授 Pieter Abbeel和他的三位博士生创办的。这家公司从仓储和物流的pick and place场景切入,起初他们面临的挑战是如何处理传送带上堆叠在一起的形状不规则的物体,例如信封或快递包裹。机器人需要确认一个多边形是由几个不一样的物体堆叠起来的。
服装行业也一直被认为很难让机器人参与进来。可以想到的场景是,布料裁片在传送带上交错堆叠,有的带有褶皱或者被不规则物体遮挡,然后机器人准确抓取布片、平铺后再缝制成我们日常穿的衣服。人眼能轻易判断布片的形状并将其展开,但对于机器人来说,布料是柔软的,要实现这一系列动作难度一度是很大的。现在,这类问题有解决方案了吗?
张巍:还很难解决,我觉得还属于前沿的科研难题,有很多科研论文讲这个。过去深度学习在机器人的操作中用得挺多,但还没有发展出足够强大的泛化能力。
要解决这些新问题,不管是从0到1还是从0到40、50分的过程,会需要一些新的方法。处理信封和衣服在某种程度上有相似之处,比如都需要解决物体堆叠的识别问题,但也有各自的挑战。未来这些问题的解决是可以预见的,因为大模型实在太强大,有些时候GPT 对场景的理解能力甚至超越人类了。
我们课题组曾围绕一张图片讨论了半个小时,图片里包含了复杂物理反光的场景,对于哪边是人、哪边是人的投影,大家意见不一,最后发现GPT的分析是对的,人和投影它都能分辨清楚。信封的分拣应该是理论上有解的,怎么产品化是另一个问题。
李丰:是的,从结果看,Covariant用它的方法解决了这类无序分拣问题。
张巍:不过,把布这种软物体操作好还不太一样,这个极其复杂,估计还要等大模型持续迭代。
李丰:我的一个看法是,在中国,服装这种生产流水线的自动化和智能化改造,跟一个长期且重大的命题有关系。中国有着全球最全的产业链,这些有优势的产业链,但凡可以被改造,不管是被自动化还是被机器人改造,它在中国转型升级的可能性就很大。反过来说,如果哪个产业在中国不能用修改流程并增加部分自动化来改造的话,那它可能会逐渐转移到劳动力成本更低的国家和地区,比如东南亚。
张巍:我觉得难,布料的自动化是比较难的。现在也有一部分初创企业在做,我不觉得它完全不可能。它是可以被自动化的,只不过它的部署和成本是很高的。你要都像制作芯片这种方式来去把这事都搞好,我觉得可能也能搞定,就是成本太高了。
李丰:当下热议的一个话题是,有了大型语言模型后,人与机器人的交互变得更加容易。过去,我们需要通过编程或特定机器语言指令来让机器人执行任务,但现在,由于大语言模型能够理解和生成自然语言对话,直接通过日常对话方式来指挥机器人这件事变得可以想象。
例如,我们可以说:“帮我从张老师的口袋里拿出钱包。”如果机器人回答说,张老师口袋里没有钱包,我们可以继续说:“那就去他的书包里找找。”最后机器人去寻找不管是钱包、信用卡或现金等东西,然后拿给我。
除了这种直观的交互方式外,您认为大模型与机器人之间还有哪些关联和潜在应用?
张巍:大模型让人们看到了机器人有强泛化能力的可能性。我们可以把机器人的发展分为三个阶段:从0到1是实现机器人本体的控制,目前在这个阶段我们已经找到了“开关”,人形就是一个例子;从1到10是对于单一技能的学习,我觉得快找到开关了;而从10到100意味着机器人能够理解任意场景并作出合理决策。虽然有些人认为这一阶段已经实现,但我认为目前大模型只是让我们看到找到“开关”的一丝希望。跟过去相比,这一目标不再是遥不可及的幻想,它是可以想象的。以拿杯子为例,如果杯子不小心被打翻,东西洒了,机器人应该如何应对?借助大模型,机器人未来可以完成分解任务,例如先拿抹布过来擦,如果地毯也被弄湿了,它还能去找保洁来处理。相信未来随着大模型的发展,会有所谓的Robot Agent来做任务的拆解,让机器人变得更智能。
李丰:换成我的理解,当我告诉机器人“务必将张老师的钱包拿过来”,我只用发出命令,至于机器人怎么从张老师那里拿钱包,具体过程我就不用管了。
张巍:对,机器人可以负责分解任务并执行。
李丰:当然它可能最简单粗暴的方法是把张老师先打晕,然后搜一遍,再把钱包拿过来。
张巍:哈哈哈,这个没学好,没跟好人学,跟坏人学了。
李丰:模仿学习的对象不对。
李丰:还有些跟您个人相关的问题。您在科研行业,尤其是在机器人相关领域深耕多年,既是研究者,也是受尊重的前沿科学家。我有两个问题:首先,在两年前人形机器人领域并不热门时,您为何选择创办一家通用机器人企业?其次,在中美两国从事科研工作多年后,转身投入到公司运营和创业工作中,您有哪些心得体会?
张巍:我可以简单分享一下创业的原因。一方面,我认为技术与商业是有交集的,尽管当时条件不像现在这么成熟,但当时至少机器人在全地形移动能力(Mobility)方面,我们已经找到“开关”了。另一方面,包括工程在内的很多领域,未来的行业主要贡献者很可能更多的来自产业界。我们希望通过创业来创造价值,尤其是在人形机器人这样一个应用导向的领域,创业能够创造的价值会不太一样,这是我们很激动的地方。
李丰:所以,科学和科研的好处是,在屋子里一片黑暗的时候,想办法找到开关。产业的好处是,既然找到了开关,我要把开关安在所有黑暗的屋子里。
张巍:至少我能把这个屋子照亮,然后我在这个屋子里可以享受或者创造很多价值。比如,我把屋子摆好一点,或者我可以把钱包主动放在你面前。
李丰:作为科学家和作为公司创始人,感受有什么不一样,哪个角色在当前对您来说挑战更大一些?
张巍:两者差别蛮大的。做研究本质上是个找开关的过程,它是发散性的事情,需要不断尝试和创新。而创业者需要在找到开关后,明确目标,集中精力去规划并执行一件事情。
我觉得创业挑战很大,做好一个企业很难。技术只是入门的一小部分要素。找到开关后,房间内的所有东西都需要调整和改动,回过头看,寻找开关可能还相对简单。
李丰:或者说找到开关只是第一步。
李丰:因为您在中国和美国都待过,在两地都有科研和产业经验,跟中国和美国的同行也都有过深入交流。在您看来,智能机器人或机器人产业在中国的发展前景如何?中美相比又是怎样的?
张巍:首先,美国比较擅长的是找开关,美国在原始创新方面还是要领先一些。不过,一旦开关被找到,进入实际应用和产业落地阶段,中国的优势很明显。尤其机器人行业是软硬件结合,是靠软件驱动硬件发展。所以说,硬件是基础,迭代的闭环里一定得有硬件。中国在这方面的优势得天独厚,尤其是在深圳及周边地区,硬件产品的迭代速度非常快。
我时常举例子说,在国外时,我买一个电机要花一两个月才能寄到,然后不合适我更换还得一两个月。在中国,这就是上午下午的事,或者说是街对面的事,这个效率是非常高的。所以在整个产业的商业化布局这一块,我觉得中国有天然的产业链优势,前提是说开关这些都差不多找到了。
李丰:总结一下,在中国,人形和具身机器人有巨大的投资和产业价值。主要原因是中国的产业结构和经济政策倾向于鼓励和支持长产业链,特别是给制造业产业链增加附加值的行业。人形和具身机器人产业就是一个很长的硬件产业链条,包括但不限于电机、减速器、传感器、芯片控制器等各种元件,尤其是今天它加上了软件算法类的技术。所以它属于长制造链+科技附加值,这种事情是中国既擅长,且在今天的环境下又特别愿意推动的事情。
有个与之相对应的例子。自动驾驶算法和新能源汽车产业,这两件事在中国一直是并重的。中国是纯自动驾驶的路测和路面开放政策最开放的国家之一。过去十来年,中国大力发展新能源车产业链。新能源车是个很长的产业链,再加上自动驾驶技术或者说智能化这个附加值。从结果看,经过这10多年的努力,中国新能源汽车开始在全球市场占据主导地位,尤其是在出口方面。
机器人行业还有个额外的好处。当具身机器人在5到10年内具备了刚张老师讲到的那些很强的能力时,它们有望同时服务于第二产业(制造业)、第三产业(服务业),甚至是农业等领域,以应对中国老龄化和人口结构变化所带来的劳动力挑战。此外,中国庞大的人口基数可以为机器人提供最广泛的应用的方向和场景。
还有一点,人形的设计易于被政策制定者理解,也容易被老百姓接受,尤其是当它成为第三产业的一部分,我们更习惯一个外观和行为更接近人的机器人来提供服务。
关于人形机器人和智能机器人,我们今天就先讨论到这。特别感谢张巍老师在重感冒的情况下带着磁性的声音来跟我们一块探讨,谢谢张老师!
互动福利
在具身智能领域,你观察到哪些创新机会?对于人形机器人,你有哪些期待呢?截止至4月10日17:00,留言最走心的5位读者将获得《第三种猩猩》和《人类简史》两本书。